Нечеткое хзширование для 
детектирования спам-писем 


7, 
Марченко Алексей pe ; 77 


Сергеевич 


4 HighLosd bb bl : 
(HL) Mai а 2 


A g enda Спам - зто проблема? 


Методы детектирования спама 


Нечеткое хэширование и кластеризация 
рхитектура 


›зультаты и дальнейшие планы 


Спам - 3TO 
проблема? 


Если коротко - да. 


Что такое спам 


Спам - 
массовое и не 
запрошенное 


История появления 

1978 год. Гэри Тюерк, 
маркетолог Digital Equipment 
Corporation рассылает 
рекламу их нового продукта. 


Цели спама 

• Реклама 

• Мошенничество и фишинг 
Распространение malware 
e DDoS 


Актуальные тренды B спаме 


e 


Blackmail 


Bà 


Malware 


EMT 6 


Email Bombs 


444 


Advertising 


Спам в первой 
половине 2021 года 


LI 
ЕТ 


Earnings 


ка B 


Dating Email Phishing 


Примеры спам-писем 6 


Вт 13.04.2021 12:44 | 
0 «orifinoSGscrubbox.aom.ph» 
Re: Erectile Pills Buy Here Open in your web browser 
кому ии Name: Coreyweick 
= — Emai: S 
catalogue-19.zip Telephone Number: aMEMMEEEE YOUR PARCEL WILL BE DELIVERED TODAY 
86 KB |. A Message Body: 
Passive income up to $8500 per 
Greetings! By ticking this бох, | agree to ай Package: 92047387025 
Hereisagreementfrom — "^ 


Failed delivery attempt: 21/03/2021 


-----Original Message--- This e-mail was sent from a cont 


Your parcel was returned to our depot and you need to reschedule your 


Br 13.04.2021 11:48 package delivery. 
Pag «infoG mazojiraide.It» To receive your package, we ask that you send us your correct address and 
Zinuté Pag pay the new shipping costs "1.99$" at the following link: 


с ОИ 


Hi, this is Jenny. | am sending you my intimate р 


Почему спам зто плохо 


Ущерб от спама 


e Нарушает непрерывность бизнеса e Средний процент спама в почтовом 
переполняя почтовые ящики трафикев 2020 году составил 50.7%. 
сотрудников. Приводит к повышению 
времени на операционные задачи. 


* Приносит с собой фишинговые • Согласно публичным отчетам, ущерб, 
ссылки и malware - это приводит к нанесенный спамом коммерческим 
прямым и непрямым финансовым организациям, исчисляется 


потерям. миллиардами в год. 


Методы 
детектирования 
спама 


Общая схема методов детектирования спам-рассьлок 


1. Сбор данных 
2. Выделение рассылок 
$. Фильтрация легитимных писем 


4. Анализ и выделение характерных 
признаков каждой спам-рассылки 


6. Формирование сигнатур для 
детектирования аналогичных писем 


7. Применение сигнатур 


Структура злектронного сообщения 


$e 


IP: 11.22.33.44 
MAIL FROM: 
«bobG spammer.com» 


Return Path: «returnGnowhere.com» 

Message-ID: «ab3Ssd45ase2G example.com» 
Content-Language: en-US 

Content-Type: text/plain 

X-Mailer: Microsoft Office Outlook, Build 12.0.4210 


Hello there! 


You have won 1000 000 $ in lottery! To take your 
money, please, follow this link http:/ /Һаскеа1- 


domain.com/download-malware123 


Информация об отправителе 


Сервер, который отослал 
сообщений (IP адрес, SMTP 
FROM, ...) 


Заголовки письма 


Техническая информация 
добавляемая к каждому письму 
(msgid, date, content type, ...). 


Тело письма 


Контент письма, 
отображаемый получателю 
(text, attachments, pictures, ...). 


Заголовки письма " 


Subject: | want to steal your personal data! 
From: senderGfoo.com 

To: meGtest.com 

Date: Mon, 23 Sep 2019 17:00:14 «0300 


Message-ld: «h5ced853647da4fd3689a26db412fa4c19 foo.com» 
Content-type: multipart/mixed; boundaryz" 64117535208 318154896--" 
X-Mailer: Microsoft Windows Live Mail 14.0.8117.416 


Заголовки Детектирование спама 
Заголовки описывают как информацию, Правильно подобранная комбинация 
отображаемую пользователю, так и заголовков позволяет уникально 


техническую информацию о письме. идентифицировать рассылку. 


Информация об отправителе 


> НЕГО 


< 


> RCP ТО innocentGclient.com 


< 


SMTP 


> SMTP FROM not-my-email&anybody.com 


< 
> DATA 
бепдег y uis 


» IP address 


Информация o6 отправителе 
Ha уровне TCP/IP нам доступен ІР-адрес 
Ha $МТР-уровне доступен SMTP ЕРОМ-адрес 


MTA 


TCP/IP 


Детектирование спама 

Позволяет строить списки[!Р-адресов, 
рассылающих спам 

Технология SPF, позволяет 
установить подлинность SMTP FROM 


Тело письма 13 


Dear recipient! 


You have wOn alottery! 
Please come to the link | send in the attachment to get your 10 000 $ PRIZE! !!! 


Best regards, 
Some Very Popular Governmental Lottery 


Тело письма Детектирование спама 
Содержит текст, который можно Текст является мощным признаком 
проанализировать для определения спам-рассылок 


Содержит вложения и картинки 


Проблемь анализа заголовков и отправителя 


Почему анализа 
заголовков и 
отправителя 
недостаточно 


Спам через формы обратной 
связи 

Спам-текст вставляется в поле 
«комментарий», а адрес жертвы 
в поле контактного адреса. 


Backscatter 

Используется легитимный, плохо 
настроенный сервер и механизм 
МОК для отправки сообщений от 
имени сервера 


Web Май / Cloud 
Спам отправляется c cepBepa 
сіоиа-платформы 


Проблемь анализа текста спам-писем 


Почему текст 
спам-писем 
тяжело 
анализировать 
«как текст» 


Зашумления 
Намеренные ошибки, 
фурезача тв, избыточная 
пунктуация и т.д. 


Перебор синонимов 

В разных сообщениях одной 
рассылки используются слова- 
синонимы или «условно» 
подходящие по контексту 


Языки 

Спам отправляется на разных 
языках и потребуется целый 
штат переводчиков 


Нечеткое 
хзширование и 
кластеризация 


Heuerkoe хзширование 


Ha зтом примере можно показать, как работает 
Heuerkoe хэшированиа и на этом же примере 
будет понятно, почёму для него выполняется 
«чем сильнее отличаются исходные 


RollingHashValue DIV 10 = 0 — «разрезаем» 


На этом примере можно по 
нечеткое хэшир 


азать, как работает 
том же примере 


несмотряна отличия в тексте будет понятно, 
почему для него выполняется правило] «чем 


сильнее отличаются исходные данные, тем 
сильнее отличаются хэши» 


CTPH* = ab4e + fc5e + Б4с3 = ab4efc5eb4c3 


Fuzzy Hashing 


«Чем сильнее отличаются 
исходные данные, тем сильнее 
отличаются хэши» 


Реализация СТРН 

Rolling Hash для определения 
точек «разреза» + Traditional 
Hash для фиксации значения 
каждого кусочка информации 
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Функция схожести нечетких хэшей 


Дистанция 
Левенштейна 


а if |b| — 0, 
|b if |a| = 0, 


levia, 0) = lev(tail(a), b) 
1+ min 4 lev(a, tail(b)) otherwise. 
lev(tail(a), tail(b)) 


lev(tail(a), tail(b)) if a|0| = 50) 


Дистанция Левенштейна как 
функция схожести СТРН- 
хэшей 


Дистанция Левенштейна 
является метрикой (с 
математической точки зрения) 


Heuerkoe хэшированиев современном П 


Применение 
#и22у-хэширования 


c) O; 


Системы 
«Антиплагиат» 


Детектирование 
malware 


> 


Поиск похожих 
изображений 


Предпосылки идеи 


ме are appy|to see you being|part of our 
riendly You'll be to the premi 
um as soon as the[trial period expires.| Thank you so much for 
BravoMovies Premium Four weeks: $39.99* ЗА: fees ar 
about your ог perhaps 
ant to cancel it at: +1(213)-267-7082 You are|actually helpi f our sales to 
the COVIDL19 Reaction Organization| we think it 1асгаста Fe support All the best| BravoMovi 


es. 


Thanks for choosing four [internet streaming service] we are happy tof see you becoming bart of our frie 
ndly crew! it 19 now time to move to premium subscription| You wi be to the premium as soon as 
the|tree period епд4. Thank you for|providing your payment details.]|Below are your order info for transaction i 


14: м0082213060303748 |BravoMovies Premium Four weeks: $39.99* ЗАТТ fees are integrated in the[price balance If рег 
about your [premium er [perhaps [vant to canceT 7t сопеаст из аве +1(213)-267-7082 You are 


helping из] deliver portion fof our sales to the СОМТЦ-19 Reaction Organization Ме] really | think it is [importan] t 
o support Always yours| BravoMovies. 


hanks a lot for selecting our internet streaming solutions] we аге happy to[|witness you becoming] par 
t of оп warm and Игтепа now chance to proceed to premium| You will be[digitally shitted[to the 
emium as soon as the[trial stage expires| Thank you so much Ғог{ giving your monthly payment infoM Listed here ar 


iere pere 
|)“ АТ fees are integrated in the[amount balance If perhaps have any concernj about your|current membership[or 
Iwould|want to cancel ТЕ | са [05 at: +1(213)-267-7082 You are elping us give away a part|of our sales 
|to the COVID ме think it's егоста to support Best regards| BravoMovies. 
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Heuerkoe хзшированиеи кластеризация 


Идея 


Использовать нечеткое 


хэширование, чтобы 
«сгладить» различия B данных 


Кластеризовать Ғи22у-хэши, 


чтобы выделить спам- 
рассылки и отсеять 
легитимные письма 
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Въбор алгоритма кластеризации 


Алгоритм не должен 

опираться на точки за 

пределами исходных 
данных 


Неизвестно 
количество 
кластеров 


S 
A 


DBSCAN 


e 
Cy 


Присутствует шум 
(легитимные письма) 


Кластеры 
не имеют 
четкой «формы» 


Чем хорош DBSCAN 


DBSCAN 


Плотностной алгоритм 
кластеризации, основанньи на 
выделении компонент 
связанности 


Не требует считать 
промежуточнье точки в 
пространстве 
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Позволяет находить кластеры 


произвольной «формы» 


Прекрасно умеет работать с 


зашумленными данными 


Оптимизация количества въчислений 


CTPH = ab4e + е! Ь4 + Б4с3 = аБ4 ее? Ь4Ь4с3 
CTPH* = ab4e + fc5e + Б4с3 = ab4efc5eb4c3 
СТРН** = Б7а4 + a3b7 + fe45 = bác4a3b7fe45 


СТРН 
CTPH** 
ab4e 
b4c3 = зъл 
а5Ь7 
fe45 


CTPH* 


У двух хэшей нет HA одного 
общего «кусочка» => у 
исходных данных нет ничего 
общего 


Позволяет разделить 
исходные данные на 
непересекающиесягруппы и 
кластеризовать отдельно => 
меньше подсчетов расстояний 
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Дизайн зксперимента 


Зксперимент TN 


100 000 ё 45 000 = 45 000 Со 


помечаем как 


помечаем как помечаем как 
известный Ө; неизвестные <> неизвестные ЕР 
наи 1. CTPH е 
2. Clustering са 


Го 


я м 
а ал ка с» ТР 


145 000 спам-писем 45 000 легитимных писем 
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Результаты эксперимента 


DBSCAN Eps Detection Detection 
Precision Recall 


0.2055 
X410 1 0.5054 0 
Х+20 1 0.4981 0 
Х+30 0.9998 0.6520 2 
Х+40 0.9996 0.74025 5 


Х+50 0.999? 0.78075 11 


Расходимся? 


Архитектура | 


Еще раз... почему не кластеризовать письма прямоу клиента? 


Общая архитектура защитных решений 


Много данных 


Большие 
мощности 


Полный 
контроль 


Š Š Š 
Š в 


MEE 
НЕЕ 


Е 


Инфраструктура 


вм 


Дорогой 
канал 


=» (23) E] 


Продукт для 
почтовой защиты 


pee 
& $ 


Клиентская среда 
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Мало данных 


Малые 
мощности 


Жесткие 
требования 
по скорости 
работы 


Ограничения клиентской среды 


Считать хэши и 
кластеризовать в клиентской 
среде нельзя 


Нет необходимых данных Нет времени 


Нет необходимых мощностей Неудобно контролировать 
качество 


Идея спам-терминов 


Thank you so much for choosing our online streaming solutions! Ме are always happy to see you being part of our 
warm and friendly team! it is time to move to premium subscription! You'll be automatically shifted to the premi 
um as soon as = trial period expires. Thank you so much for giving your settlement details. Below are your ord 
er number:M0082261491993908 BravoMovies Premium зибзсг прое ОИ 
ТА 


jprice total In case you have any thoughts about your current UY or perhaps would w 


3 Thanks for а our internet streaming service! We аге extreamely T to see you becoming part of our frie 
ndly crew! it is now time to move to premium subscription! You will be digitally moved to the premium as soon as 
the free period ends. Thank you for providing your payment details. Below are your order info for transaction i 

d:M0082213060303748 BravoMovies jji C uini] re «e balance If per 
haps have some concerns about your premium or perhaps want to cancel 1t, contact us at: +1(213)-267-7082 You are 
| hanks a lot for selecting our internet streaming solutions! We are extreamely happy to witness you becoming par 
t of our warm and friendly crew! it is now chance to proceed to premium! You will be digitally shifted to the pr 
emium as soon as the trial stage expires. Thank you so much for giving your monthly payment infg ed here s 

e your order information for transaction no:M0082282634283918 BravoMovies Premium subscription|Four weeks: $39.9| 
98 ЗА fees are integrated in the|amount balance If perhaps have any concerns about your current membership or 
would want to cancel it, call us at: +1(213)-267-7082 You are actually helping us give away a part of our sales 
to the COVID Solution Organization. We think it's crucial to support others! Best regards, BravoMovies. 


JlerkoBecHo 


Four weeks: $39.99* “А tax are integrated in the Иеркоприме пяла 


Легко интерпретировать 
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Алгоритм поиска максимальной общей подстроки 


LCS 


NA$ 


Определение 


LCS (Longest Common 
Substring), семейство 
алгоритмов поиска 
максимальной общей 
подстроки в заданном 
множестве текстов 


Реализация! С5 


Существует множество 
реализаций, одним из 
наиболее быстрых является 
вариант на генерализованных 
суффиксных деревьях 
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Виды извлекаемых подстрок 


Хорошие и плохие 
подстроки 


Four weeks: $39.99* *All tax are integrated in the 


Please let me know if you have any questions Thanks 


He каждая максимальная 
подстрока характеризует 
спам-рассылку 


Подстроки, характеризующие 
спам-рассылку, будем 
называть «спам-термины» 


Вопрос: как определить, 
является ли подстрока спам- 
термином? 
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Как отличить «хорошие» и «плохие» подстроки 


Фильтрация 
подстрок 


По виду подстроки 

e Малая длина 

* Малое количество слов 
Отсутствие идентификаторов 


По коллекциям 


* Присутствие в других 
кластерах (спам- 
рассылках) 


Присутствие в коллекциях 
легитимных писем 
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Результаты эксперимента 


5 : 
DBSCAN Eps Detection Detection с, valid 
Precision Recall spam terms 


0.2055 65.87 
X410 1 0.5054 0 72.10 
Х+20 1 0.4981 0 56.66 
Х+50 0.9998 0.6320 4 47.38 
Х+40 0.9996 0.74025 5 45.54 


Х+50 0.9992 0.78075 T1 45.21 


Архитектура алгоритма 


p———— À——À—————————sBT—n 
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Конвертация Извлечение 


Кластеризация Фильтрация 


в СТРН LCS 


Сглаживает Въделяет спам- Формирует простую Позволяет 

зашумление рассълки сигнатуру отфильтровать 
«плохие» сигнатуры и 

«Цепляется» за Отфильтровывает получить спам- 

повторяющиеся легитимные письма термины 

фрагменты 

Убирает 

необходимость 


анализировать тексты 


Глобальная архитектура 37 


Спам-письма из ловушек e Входящие письма 


Го 


Сохранение Получение 
соответствия текстов по 
хэшейи хэшам 

текстов 


Тексты <-> Хэши 


Конвертация Извлечение Спам-термины Поиск 
СТРН Кластеризация LCS подстроки для 
в Продукт для детектирования 
спама 


почтовой защиты 


І 

І 

І 

СТРН-хэши Кластеры І 

І 

І 

1 

фильтрация І 

Коллекция легитимных 
известных сообщений и | 
спам- рассълок : 


сообщений Инфраструктура ' Клиентская среда 


Оценка подхода 


Сильнье и 
слабые стороны 


Сильные стороны 
e Дешевизна трафика 
* Простота интерпретации 


e Скорость детектирования B 
клиентской среде 


Слабые стороны 


Временные затраты на 
получение спам-терминов 


Большие вычислительные 
ресурсы в инфраструктуре 
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Результаты и 
дальнейшие планы 


Результаты запуска 


01.10.2020 


M 


Запуск технологии 


58 000+ 


по 


Спам-терминов 
выпущено 


25 000 000+ 


x 


Спам-писем заблокировано и 
у пользователей 


Пример 41 


Greeting's Beloved I am Mrs Lizzy Febian I'm 63 Years old. I am а widow, sufferings from а Топ 
g time cancer disease. I want to use my Inherited Fund to help the orphans and Widows. If you 
-- are willingly to carry out this work for God's sake Contact me for more details Thanks and God 


I am Mrs. Monika bless you. your Beloved sister Mrs Lizzy Febian 


I am a widow, sufferings from a long time cancer disease. 

I want use my Inherited Fund to Donate for the Orphans Needy and Widows. 
If you are willingly to carry out this work for God's sake. 

Contact me for more details. 


Pozdrowienia od pani Lizzy Febian Nazywam sie Pani Lizzy Febian Mam 63 lata. Jestem wdowa i od 
дампа cierpię па гака. Chcę wykorzystać swój odziedziczony fundusz, ару pomóc sierotom 1 wdowo 
m. Jeśli zechcesz wykonać te pracę na miłość boską, skontaktuj sie ze mna, ару uzyskać więcej 

informacji Dziękuję i niech cię Bóg błogosławi. twoja ukochana siostra Pani Lizzy Febian Greet 
ing's From Mrs Lizzy Febian I am Mrs Lizzy Febian I'm 63 Years old. I am a widow, sufferings 
from a long time cancer disease. I want to use my Inherited Fund to help the orphans and Widow 
s. If you are willingly to carry out this work for God's sake Contact me for more details Than 


ks and God bless you. your Beloved sister Mrs Lizzy Febian 


With best regards, 
E-mail: monika. 127: 
Mrs Monika David. 


Пример 42 


| —ÓÓM 9 
Здравствуйте, позвольте мы ознакомим Вас c нашей программой. 


UltimateSpiderBot - Программа для быстрого продвижения Веб-сайтов. 
Миллионы уникальных посещений Вашего сайта. 


Здравствуйте, позвольте мы ознакомим Вас с нашей прогр: 

UltimateSpiderBot - Программа для быстрого продвижения 
Миллионы уникальных посещений Вашего сайта. 

Результат: 

? Ваш сайт в ТОП поисковых систем. ? Счетчик посещений 
о всем показателям. ? Зарабатывайте на рекламе. 


Результат: 

? Ваш сайт в ТОП поисковых систем. 

? Счетчик посещений растет на глазах. 

? Высокие рейтинги по всем показателям. 
? Зарабатывайте на рекламе. 


ыдаче. 
Простыми словами, программа выведет Ваши сайты в топ, Простъми словами, программа въведет Ваши сайты B топ, a сайты конкурентов потеряют свои позици 
ии. и. 


Возможно Ваши кон Здравствуйте, так как Вы владеете ВВозможно Ваши конкуренты уже используют наш софт и выводят свои проекты в TON.. 
UltimateSpiderBot - Программа для 

мы. 

МИЛЛИОНЫ УНИКАЛЬНЫХ ПОСЕЩЕНИЙ ВА 


Пожизненная лицензия! 


Подробнее на нашем Веб-сайте. 


Вам интересно вывес 
https://freetopfast.com/ 


Íhttp://bit.ly/free 
-Ғаѕ+}- 
Пожизненная лиценз 


To view all of this form's submissions, visit https://www.panasonicaircon. co. nz/index. php/dash 
board/reports/forms?qsid-1522012625 


У программы существует возможность 
ыдаче. 
Простыми словами, программа выведет Ваши сайты в ТОП засчитанные дни, а сайты конкурентов пон 


изит ниже плинтуса... 


Возможно Ваши конкуренты уже используют наш софт и выводят свои проекты в топ... 
Вам интересно вывести свой сайт в ТОП, без вложений, за несколько дней? 


[http://bit.ly/freetopfast]- Подробнее о программе UltimateSpiderBot [http://bit.ly/freetopfas 
ti- 


Пример 


вас е 6000 (EUmiEE-EEUPS/FEDEXUIKIERRE) АНЯ 


2E 7ikg- 101к0+ 501Ка+ 


248) (0-97 3-8) 19 


Те1 :0755-27872162 Fax:0755-27 
UQ: 1941553703 


Mob:189 2745 4613 (НЕВЕ) 


http: (http://www. szftyt. сот/} 


ЕЖЕ 


[cid: Foxmail.iG4aac9f5f-f970-4de4-b7b1-fb9a4e89b945 } ЕЕ £- (ie B$ CAT 6) 


ВЕЖ  21KG+  75KG-  201KG-  301KG«  500KG- ЗЕЕ FWithzs[about:Attach/128280(05-07-12 
Ht BEES ENRAS -00-52).png) 5-7 ГЕН 


" 


жвенав" (0-9F LAA) Е 54 53 52 ЖМ ЛЕ НИ 


EB Двен 


ввек —21KG-  75KG-  201KG- 
viewfile?f-FSSE9CA39EC25F116E2ED7B 
AA4886E1FAA9E265B465 АС24Е8ВОС 2007 2| 
93A2F52593564C6&mai lid-ZL2811-iK-I. 
#226000 5-7 ТЕНЕ 


WQ: 1941553703 
Е: 18927454613 


" 


SES (0-S7EBEEE) + 
ВНЕ ВНЕ 


т КЕ РОВА ERAS] 
ADD -RIISU СНА IR AEESA19 
(«REDACTED | ТМК>) Те! :0755-27872162 Fax:0755-27872161 


1 Мешава саала Mob:189 2745 4613 


http:www.szftyt.com 
Те] :0755-27872162 Fax:0755-27872161 


Mob:189 2745 4613 (#5) ҸО: 1941553703 
http:[http://www. szftyt.com/]www.szftyt.com 
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Дальнейшие планы 


Что дальше? 


ac 


Весовые спам-термины 

В ситуациях, когда есть большое 
количество «плохих» общих 
подстрок, которые в совокупности 
дают «хорошую» сигнатуру 


Не самые длинные подстроки 


В ситуациях, когда самая длинная 
подстрока оказалась «плохой» 
сигнатурой, но следующая за ней по 
длине - валидный спам-термин 


44 


Спасибо! 


... И 
время вопросов 


Так на Н ++ наливают или нет? 


